智能论文笔记

The Geometric Occam's Razor Implicit in Deep Learning

Benoit Dherin , Micheal Munn , David G. T. Barrett

分类：机器学习 | (统计)机器学习

2021-11-30

在过度参数化的深度神经网络中，可能有许多可能的参数配置，可以完全适合训练数据。然而，这些内插解决方案的性质理解得很差。我们认为，随机梯度血淋于训练的过度参数化神经网络受几何偶数的剃刀;也就是说，通过几何模型复杂性隐式规范这些网络。对于一维回归，几何模型复杂性仅由函数的电弧长度给出。对于高维设置，几何模型复杂性取决于功能的Dirichlet能量。我们探讨了这种几何偶数剃须刀，Dirichlet能量和其他已知形式的隐式正则化的关系。最后，对于在CiFar-10上培训的Resnets，我们观察到Dirichlet Energy测量与这种隐式几何偶数剃刀的动作一致。

translated by 谷歌翻译

Structured Like a Language Model: Analysing AI as an Automated Subject

Liam Magee , Vanicka Arora , Luke Munn

分类：人工智能

2022-12-08

Drawing from the resources of psychoanalysis and critical media studies, in this paper we develop an analysis of Large Language Models (LLMs) as automated subjects. We argue the intentional fictional projection of subjectivity onto LLMs can yield an alternate frame through which AI behaviour, including its productions of bias and harm, can be analysed. First, we introduce language models, discuss their significance and risks, and outline our case for interpreting model design and outputs with support from psychoanalytic concepts. We trace a brief history of language models, culminating with the releases, in 2022, of systems that realise state-of-the-art natural language processing performance. We engage with one such system, OpenAI's InstructGPT, as a case study, detailing the layers of its construction and conducting exploratory and semi-structured interviews with chatbots. These interviews probe the model's moral imperatives to be helpful, truthful and harmless by design. The model acts, we argue, as the condensation of often competing social desires, articulated through the internet and harvested into training data, which must then be regulated and repressed. This foundational structure can however be redirected via prompting, so that the model comes to identify with, and transfer, its commitments to the immediate human subject before it. In turn, these automated productions of language can lead to the human subject projecting agency upon the model, effecting occasionally further forms of countertransference. We conclude that critical media methods and psychoanalytic theory together offer a productive frame for grasping the powerful new capacities of AI-driven language systems.

translated by 谷歌翻译

Spherical Image Inpainting with Frame Transformation and Data-driven Prior Deep Networks

Jianfei Li , Chaoyan Huang , Raymond Chan , Han Feng , Micheal Ng , Tieyong Zeng

分类：计算机视觉

2022-09-29

球形图像处理已被广泛应用于许多重要领域，例如自动驾驶汽车，全球气候建模和医学成像的全向视觉。扩展针对平面图像开发的算法的算法是非平凡的。在这项工作中，我们专注于具有基于深度学习的正常化程序的球形图像的具有挑战性的任务。我们采用了快速的方向球形帧转换，而不是对平面图像的现有模型的幼稚应用，并基于framelet变换的稀疏性假设而开发了一种新颖的优化框架。此外，通过采用渐进式编码器架构，经过精心设计的新的，表现出色的CNN Denoiser，可以作为隐式正规化程序进行设计。最后，我们使用插件方法来处理提出的优化模型，可以通过训练CNN Denoiser先验来有效地实现。进行了数值实验，并表明所提出的算法可以极大地恢复损坏的球形图像，并使用深度学习的DeNoiser和Paint-＆play模型实现最佳性能。

translated by 谷歌翻译

Why neural networks find simple solutions: the many regularizers of geometric complexity

Benoit Dherin , Michael Munn , Mihaela C. Rosca , David G. T. Barrett

分类：机器学习 | (统计)机器学习

2022-09-27

在许多情况下，更简单的模型比更复杂的模型更可取，并且该模型复杂性的控制是机器学习中许多方法的目标，例如正则化，高参数调整和体系结构设计。在深度学习中，很难理解复杂性控制的潜在机制，因为许多传统措施并不适合深度神经网络。在这里，我们开发了几何复杂性的概念，该概念是使用离散的dirichlet能量计算的模型函数变异性的量度。使用理论论据和经验结果的结合，我们表明，许多常见的训练启发式方法，例如参数规范正规化，光谱规范正则化，平稳性正则化，隐式梯度正则化，噪声正则化和参数初始化的选择，都可以控制几何学复杂性，并提供一个统一的框架，以表征深度学习模型的行为。

translated by 谷歌翻译

Holistic Segmentation

Stefano Gasperini , Frithjof Winkelmann , Alvaro Marcos-Ramiro , Micheal Schmidt , Nassir Navab , Benjamin Busam , Federico Tombari

分类：计算机视觉 | 机器学习 | 机器人

2022-09-12

由于全景分割为输入中的每个像素提供了一个预测，因此，非标准和看不见的对象系统地导致了错误的输出。但是，在关键的环境中，针对分发样本的鲁棒性和角案件对于避免危险行为至关重要，例如忽略动物或道路上的货物丢失。由于驾驶数据集不能包含足够的数据点来正确采样基础分布的长尾巴，因此方法必须处理未知和看不见的方案才能安全部署。以前的方法是通过重新识别已经看到未标记的对象来针对此问题的一部分。在这项工作中，我们扩大了提出整体分割的范围：一项任务，以识别和将看不见的对象分为实例，而无需从未知数中学习，同时执行已知类别的全面分割。我们用U3HS解决了这个新问题，U3HS首先将未知数视为高度不确定的区域，然后将相应的实例感知嵌入到各个对象中。通过这样做，这是第一次使用未知对象进行综合分割，我们的U3HS未接受未知数据的训练，因此使对象类型的设置不受限制，并允许对整体场景理解。在两个公共数据集上进行了广泛的实验和比较，即CityScapes和作为转移的丢失和发现，证明了U3HS在挑战性的整体分段任务中的有效性，并具有竞争性的封闭式全盘分段性能。

translated by 谷歌翻译

General Place Recognition Survey: Towards the Real-world Autonomy Age

Peng Yin , Shiqi Zhao , Ivan Cisneros , Abulikemu Abuduweili , Guoquan Huang , Micheal Milford , Changliu Liu , Howie Choset , Sebastian Scherer

分类：机器人 | 计算机视觉

2022-09-09

位置识别是可以协助同时定位和映射（SLAM）进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中，该地点认可社区取得了惊人的进步，这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是，在复杂的现实世界情景中，很少有方法显示出有希望的位置识别性能，在复杂的现实世界中，长期和大规模的外观变化通常会导致故障。此外，在最先进的方法之间缺乏集成框架，可以应对所有挑战，包括外观变化，观点差异，对未知区域的稳健性以及现实世界中的效率申请。在这项工作中，我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先，我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后，我们回顾了最新的作品，以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后，我们回顾了现有的数据集以进行长期本地化，并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见：机器人是否需要准确的本地化来实现长期自治？这项工作以及我们的数据集和评估API的摘要可向机器人社区公开，网址为：https：//github.com/metaslam/gprs。

translated by 谷歌翻译

A Simulation Study of Functional Electrical Stimulation for An Upper Limb Rehabilitation Robot using Iterative Learning Control (ILC) and Linear models

Boluwatife E. Faremi , Kayode P. Ayodele , Abimbola M. Jubril , Afeez A. Fakunle , Mathew O. B. Olaogun , Micheal B. Fawale , Morenikeji A. Komolafe

分类：机器人

2022-07-15

在康复任务期间，实施了现有混合中风康复方案的线性模型的比例迭代学习控制（P-ILC）。由于P-ILC的瞬时误差生长问题，包括学习派生的约束控制器，以确保每个试验中受控系统不会超过预定义的速度极限。为此，开发了机器人最终效应器相互作用与中风受试者（植物）的线性传递函数模型以及对刺激控制器的肌肉反应。 0-0.3 m范围的直线点点轨迹是工厂，进料和反馈刺激控制器的参考任务空间轨迹。在每个试验中，基于SAT的有界误差导数ILC算法是学习约束控制器。开发并模拟了三个控制配置。使用根均值平方误差（RMSE）和归一化的RMSE评估系统性能。在不同的ILC增益超过16次迭代时，当组合对照构型时，将获得0.0060 m的位移误差。

translated by 谷歌翻译

Autonomous Navigation System from Simultaneous Localization and Mapping

Micheal Caracciolo , Owen Casciotti , Christopher Lloyd , Ernesto Sola-Thomas , Matthew Weaver , Kyle Bielby , Md Abdul Baset Sarker , Masudul H. Imtiaz

分类：机器人 | 计算机视觉

2021-12-14

本文介绍了同时定位和基于映射的自主导航系统的开发。本研究的动机是寻找一个自主导航内部空间的解决方案。内部导航是挑战，因为它可以永远发展。解决这个问题是众多服务，如清洁，卫生行业和制造业。本文的重点是为此提出的自主系统开发的基于奴役的软件架构的描述。评估了该系统的潜在应用，以智能轮椅为导向。当前的内部导航解决方案需要某种引导线，就像地板上的黑线一样。通过这种提出的解决方案，内部不需要装修以适应该解决方案。此应用程序的源代码已成为开源，以便可以为类似的应用重新饰。此外，该开源项目被设想通过广泛的开源社区在其当前状态后得到改善。

translated by 谷歌翻译

Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges

Jian Ding , Nan Xue , Gui-Song Xia , Xiang Bai , Wen Yang , Micheal Ying Yang , Serge Belongie , Jiebo Luo , Mihai Datcu , Marcello Pelillo

分类：计算机视觉

2021-02-24

在过去的十年中，由于航空图像引起的物体的规模和取向的巨大变化，对象检测已经实现了自然图像中的显着进展，而不是在空中图像中。更重要的是，缺乏大规模基准已成为在航拍图像（ODAI）中对物体检测发展的主要障碍。在本文中，我们在航空图像（DotA）中的物体检测和用于ODAI的综合基线的大规模数据集。所提出的DOTA数据集包含1,793,658个对象实例，18个类别的面向边界盒注释从11,268个航拍图像中收集。基于该大规模和注释的数据集，我们构建了具有超过70个配置的10个最先进算法的基线，其中已经评估了每个模型的速度和精度性能。此外，我们为ODAI提供了一个代码库，并建立一个评估不同算法的网站。以前在Dota上运行的挑战吸引了全球1300多队。我们认为，扩大的大型DOTA数据集，广泛的基线，代码库和挑战可以促进鲁棒算法的设计和对空中图像对象检测问题的可再现研究。

translated by 谷歌翻译